Los datos obtenidos de Kaggle tienen la informacion atmosferica de varios años en australia, datos en los que viene incluida desde la velocidad del viento hasta la temperatura, en total 23 variables recogidas durante varios años en distintas ciudades de australia con las que se obtienen un data set de 140.000 lineas aproximadamente.
Nuestro objetivo será predecir la lluvia del dia siguiente con los datos metereologicos del dia.
Con este dataset tan grande lo primero que nos planteamos fue centrarnos en dos cosas
-Utilizar una zona concreta de australia, sacada de la variable localizacion, de la cual elegimos 4 ciudades situadas en la costa sureste de Australia y -Utilizar la variable temporal de alguna forma, ya que considerabamos que tenia importancia pero no podiamos usar cada dia del año como un dato diferente, por lo que decidimos obtener apartir de la fecha la estacion del año en la que estaba cada linea,
## # A tibble: 6 x 25
## Date Season Location MinTemp MaxTemp Rainfall Evaporation Sunshine
## <date> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2008-02-01 summer Sydney 19.5 22.4 15.6 6.2 0
## 2 2008-02-02 summer Sydney 19.5 25.6 6 3.4 2.7
## 3 2008-02-03 summer Sydney 21.6 24.5 6.6 2.4 0.1
## 4 2008-02-04 summer Sydney 20.2 22.8 18.8 2.2 0
## 5 2008-02-05 summer Sydney 19.7 25.7 77.4 NA 0
## 6 2008-02-06 summer Sydney 20.2 27.2 1.6 2.6 8.6
## # … with 17 more variables: WindGustDir <chr>, WindGustSpeed <dbl>,
## # WindDir9am <chr>, WindDir3pm <chr>, WindSpeed9am <dbl>, WindSpeed3pm <dbl>,
## # Humidity9am <dbl>, Humidity3pm <dbl>, Pressure9am <dbl>, Pressure3pm <dbl>,
## # Cloud9am <dbl>, Cloud3pm <dbl>, Temp9am <dbl>, Temp3pm <dbl>,
## # RainToday <chr>, RISK_MM <dbl>, RainTomorrow <chr>
## Dimensiones dataset train: 9824 25
## Dimensiones dataset test: 1228 25
## Dimensiones dataset validación: 1228 25
Analizamos las variables individuales por separado con distintos gráficos.
Antes que nada, visualizamos las ciudades de Australia elegidas y realizamos un conteo del número de dÃas que han llovido o no en cada una.
Se visualiza ahora los dÃas que han llovido en función de las ciudades y las estaciones del año.
En este dataset hay muchos pares de variables que están fuertemente relacionadas, por ejemplo la temperatura máxima y mÃnima de un dÃa, o la presión a las 9 de la mañana y la presión a las 3 de la tarde. Por ello, en el análisis individual de variables se estudiarán a la vez por una mejor comprensión.
## [1] "Temperatura mÃnima"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -8.00 7.90 11.60 11.44 15.50 33.90 9
## [1] "Temperatura máxima"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 4.10 17.10 21.40 22.01 26.10 45.80 8
La temperatura mÃnima se podrÃa asimilar a una distribución normal. La temperatura máxima tiene una cola a su derecha en la que aparecen mútliples valores atÃpicos.
Las variables Temp9am y Temp3pm son muy parecidas a las temperaturas máximas y mÃnimas.
## [1] "Temperatura 9am"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -1.30 11.70 15.40 15.55 19.30 38.60 24
## [1] "Temperatura 3pm"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 3.70 15.90 20.00 20.56 24.50 44.70 17
## [1] "Presión 9am"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 982.3 1013.6 1018.6 1018.5 1023.5 1040.2 201
## [1] "Presión 3pm"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 985.5 1011.4 1016.3 1016.2 1021.1 1037.8 196
## [1] "Presión 9am"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 5.00 56.00 68.00 67.22 80.00 100.00 71
## [1] "Presión 3pm"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 4.00 37.00 48.00 48.95 60.00 99.00 30
## [1] "Nubes 9am"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 2.000 6.000 4.694 7.000 9.000 4111
## [1] "Nubes 3pm"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 2.000 5.000 4.696 7.000 8.000 4298
## [1] "Velocidad del viento 9am"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 7.00 11.00 13.27 19.00 63.00 207
## [1] "Velocidad del viento 3pm"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 13.00 19.00 18.82 24.00 65.00 199
WindGustDir: The direction of the strongest wind gust in the 24 hours to midnight. WindGustSpeed: The speed (km/h) of the strongest wind gust in the 24 hours to midnight.
## [1] "Velocidad más fuerte del viento"
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 11.00 31.00 39.00 40.64 48.00 106.00 1104
Analizamos cuatro variables que no están, a priori, relacionadas por pares.
RISK_MM
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 0.000 2.164 0.800 119.400
Rainfall
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 0.000 0.000 2.165 0.600 119.400 181
Velocidad de Evaporation
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 2.400 4.200 5.018 6.800 43.400 2493
Velocidad de Sunshine
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 4.10 7.90 7.15 10.20 13.90 2667
Analizamos la relación unas variables con otras.
Gracias a este gráfico demostramos que los pares de variables citados sà están fuertemente relacionados. Por ejemplo, la presión a las 9 de la mañana con la presión a las 3 de la tarde: si una aumenta, la otra también. Destacar que también hay correlaciones inversas: cuando aumenta la variable Sunshine, disminuye la Cloud9am.
Analizamos en general la relación entre las variables con las estaciones, la variable de salida (RainTomorrow) y las ciudades. Para ello seleccionamos una de las variables de los pares y el resto. Las variables Rainfall y Risk_mm no las mostramos pues su distribución es difÃcil de visualizar. Se analizarán posteriormente con las transformaciones.
Relaciones por estaciones.
La Temperatura (MaxTemp, Temp9am), la presión (Pressure3pm) y evaporación muestran un claro comportamiento diferente según la estación.
Relaciones por ciudades.
La temperatura es la variable dónde se puede observar más claramente que tiene un comportamiento diferente para cada ciudad.
Relaciones por RainTomorrow, si llueve o no.
A partir de estas relaciones, indagamos con más detalle las relaciones que parecen interesantes.
Las cuatro variables de temperatura son muy parecidas, como puede observarse en sus distribuciones:
Al estar relacionadas y tener un comportamiento similar posteriormente se estudiará introdudir al modelo interacciones entre éstas.
Veamos cómo se comporta una de ellas según las estaciones y ciudades:
Veamos cómo se comporta la presión según las estaciones y ciudades: